事件摄像机对场景的亮度变化异步,独立于每个像素。由于属性,这些相机具有不同的特征:高动态范围(HDR),高时间分辨率和低功耗。但是,应将事件摄像机的结果处理为计算机视觉任务的替代表示。另外,它们通常很嘈杂,并且在几乎没有事件的地区导致性能不佳。近年来,许多研究人员试图重建事件中的视频。但是,由于缺乏不规则和不连续数据的时间信息,它们没有提供高质量的视频。为了克服这些困难,我们引入了一个E2V-SDE,该E2V-SDE由随机微分方程(SDE)控制在潜在空间中。因此,E2V-SDE可以在任意时间步骤中快速重建图像,并对看不见的数据做出现实的预测。此外,我们成功采用了各种图像组成技术来提高图像清晰度和时间一致性。通过对模拟和实际场景数据集进行广泛的实验,我们验证了我们的模型在各种视频重建设置下的表现优于最先进的方法。就图像质量而言,LPIPS得分提高了12%,重建速度比ET-NET高87%。
translated by 谷歌翻译
无源的无监督域适应性(SFUDA)旨在使用预训练的源模型而不是源数据来获得未标记的目标域中的高性能。现有的SFUDA方法为所有目标样本分配了相同的重要性,这很容易受到错误的伪标记。为了区分样本重要性,在这项研究中,我们提出了一个新的样本置信度评分,即SFUDA的联合模型数据结构(JMDS)得分。与仅使用源或目标域知识之一的现有置信分数不同,JMDS分数都使用了两种知识。然后,我们建议使用SFUDA的JMDS(COWA-JMDS)框架进行置信度评分适应。 COWA-JMD由JMDS分数作为样品重量和权重混合,这是我们提出的混合变体。重量混合促进该模型更多地利用目标域知识。实验结果表明,JMDS得分的表现优于现有的置信得分。此外,Cowa-JMDS在各种SFUDA方案:封闭,开放和部分集合方案中实现最先进的表现。
translated by 谷歌翻译
为了估计基于多视图的渲染中3D点的体积密度和颜色,一种常见的方法是检查给定的源图像特征之间的共识存在,这是估计过程的信息提示之一。为此,大多数以前的方法都利用了同样加权的聚合特征。但是,这可能会使在源图像功能集中包含一些经常通过遮挡发生的异常值时,很难检查共识存在。在本文中,我们提出了一种新颖的源视图特征聚合方法,该方法通过利用特征集中的局部结构来促进我们以强大的方式以强大的方式找到共识。我们首先计算提出的聚合的每个源特征的源视图距离分布。之后,将距离分布转换为几个相似性分布,并具有所提出的可学习相似性映射函数。最后,对于特征集中的每个元素,通过计算加权均值和方差来提取聚合特征,其中权重是从相似性分布得出的。在实验中,我们在各种基准数据集(包括合成和真实图像场景)上验证了所提出的方法。实验结果表明,合并提出的功能可以通过大幅度提高性能,从而提高最先进的性能。
translated by 谷歌翻译
尽管在基于生成的对抗网络(GAN)的声音编码器中,该模型在MEL频谱图中生成原始波形,但在各种录音环境中为众多扬声器合成高保真音频仍然具有挑战性。在这项工作中,我们介绍了Bigvgan,这是一款通用的Vocoder,在零照片环境中在各种看不见的条件下都很好地概括了。我们将周期性的非线性和抗氧化表现引入到发电机中,这带来了波形合成所需的感应偏置,并显着提高了音频质量。根据我们改进的生成器和最先进的歧视器,我们以最大的规模训练我们的Gan Vocoder,最高到1.12亿个参数,这在文献中是前所未有的。特别是,我们识别并解决了该规模特定的训练不稳定性,同时保持高保真输出而不过度验证。我们的Bigvgan在各种分布场景中实现了最先进的零拍性能,包括新的扬声器,新颖语言,唱歌声音,音乐和乐器音频,在看不见的(甚至是嘈杂)的录制环境中。我们将在以下网址发布我们的代码和模型:https://github.com/nvidia/bigvgan
translated by 谷歌翻译
最近的研究表明,基于梯度匹配的数据集综合或数据集凝结(DC),当应用于数据有效的学习任务时,方法可以实现最先进的性能。但是,在这项研究中,我们证明,当任务 - 核定信息构成培训数据集的重要组成部分时,现有的DC方法比随机选择方法的性能更糟。我们将其归因于缺乏与课堂梯度匹配策略所产生的类对比信号的参与。为了解决此问题,我们通过修改损耗函数以使DC方法有效地捕获类之间的差异来提出与对比度信号(DCC)的数据集凝结。此外,我们通过跟踪内核速度来分析训练动力学的新损失函数。此外,我们引入了双层热身策略,以稳定优化。我们的实验结果表明,尽管现有方法对细粒度的图像分类任务无效,但所提出的方法可以成功地为相同任务生成信息合成数据集。此外,我们证明所提出的方法甚至在基准数据集(例如SVHN,CIFAR-10和CIFAR-100)上也优于基准。最后,我们通过将其应用于持续学习任务来证明该方法的高度适用性。
translated by 谷歌翻译
尖峰神经网络(SNNS)模仿大脑中信息传播可以通过离散和稀疏的尖峰来能够能够通过离散和稀疏的尖峰来处理时空信息,从而受到相当大的关注。为了提高SNN的准确性和能源效率,大多数以前的研究仅集中在训练方法上,并且很少研究建筑的效果。我们研究了先前研究中使用的设计选择,从尖峰的准确性和数量来看,发现它们不是最适合SNN的。为了进一步提高准确性并减少SNN产生的尖峰,我们提出了一个称为Autosnn的尖峰感知神经体系结构搜索框架。我们定义一个搜索空间,该搜索空间由架构组成,而没有不良的设计选择。为了启用Spike-Aware Architecture搜索,我们引入了一种健身,该健身既考虑尖峰的准确性和数量。 Autosnn成功地搜索了SNN体系结构,这些体系结构在准确性和能源效率方面都超过了手工制作的SNN。我们彻底证明了AutoSNN在包括神经形态数据集在内的各种数据集上的有效性。
translated by 谷歌翻译
局灶性肝脏病变(FLLS)的计算机辅助诊断有助于改善工作流程并实现正确的诊断; FLL检测是如此计算机辅助诊断的第一步。尽管近期基于深度学习的方法在检测到FLLS方面取得了成功,但目前的方法对于评估未对准的多相数据来说是不够稳健的。通过在特征空间中引入注意引导的多相对准,本研究提出了一种用于检测来自多相计算机断层扫描(CT)图像的FLL的完全自动化的端到端学习框架。由于其完全基于学习的方法,我们的方法是对错位的多相图像的强大,这降低了模型对注册质量的敏感性,并且可以在临床实践中独立地部署模型。具有280名患者的大型数据集的评估证实,我们的方法优于先前的最先进的方法,并显着降低了使用未对准的多相CT图像检测FLL的性能劣化。所提出的方法的稳健性可以增强深学习的计算机辅助检测系统的临床采用。
translated by 谷歌翻译
通过将其与监督学习框架相结合,我们改善了最近开发的神经元,是一种基于神经网络的自适应离散的丹机。即,我们通过基于给定嘈杂的数据受到去噪的给定嘈杂的数据来使神经调整的监督训练兼容。结果,与香草神经元伙子相比,我们实现了显着的去噪能力,这只需要采用随机初始化参数的自适应微调步骤。此外,我们示出了自适应微调使得算法稳健使得噪声错配或盲目训练的监督模型仍然可以实现匹配模型的性能。此外,我们制作一些算法的进步,使神经伙伴更可扩展,并处理具有更大字母大小的多维数据或数据。我们系统地显示了我们对两个非常多元化的数据集,二值图像和DNA序列的改进。
translated by 谷歌翻译
大多数神经文本到语音(TTS)模型需要<语音,转录器>来自所需扬声器的成对数据,以获得高质量的语音合成,这限制了大量未经过滤的训练数据的使用。在这项工作中,我们呈现导向TTS,这是一种高质量的TTS模型,用于从未筛选的语音数据生成语音。引导TTS将无条件扩散概率模型与单独培训的音素分类器组合以进行文本到语音。通过对语音的无条件分配建模,我们的模型可以利用未经筛选的培训数据。对于文本到语音合成,我们通过音素分类指导无条件DDPM的生成过程,以产生来自给定转录物的条件分布的MEL-谱图。我们表明,导向TTS与现有的方法实现了可比性的性能,而没有LJSpeech的任何成绩单。我们的结果进一步表明,在MultiSpeaker大规模数据上培训的单个扬声器相关的音素分类器可以指导针对各种扬声器执行TTS的无条件DDPM。
translated by 谷歌翻译
近年来,提出了关于时间序列异常检测(TAD)的研究报告基准TAD数据集中的高F1分数,给出了TAD的清晰改进的印象。然而,大多数研究在评分之前应用了一个名为Point调整(PA)的特殊评估协议。在本文中,我们理论上实验揭示了PA协议具有高估检测性能的可能性;也就是说,即使是随机异常的分数也可以容易地变成最先进的TAD方法。因此,应用PA协议后的TAD方法的比较可能导致误导排名。此外,我们通过表示未经训练的模型对现有方法获得了可比的检测性能,即使禁止禁止,我们会解决现有TAD方法的潜力。根据我们的调查结果,我们提出了一种新的基线和评估议定书。我们预计我们的研究将有助于对TAD严格评估,并导致未来的研究进一步改善。
translated by 谷歌翻译